3  Analyse van kansengelijkheid

ITD | B Communication and Multimedia Design (CMD) - voltijd - versie 1.0

Auteur

Theo Bakker, lector Learning Technology & Analytics, De HHs

Publicatiedatum

12 december 2024

3.1 Inleiding

Na de factoranalyse van de data gaan we nu in op de onderwerpen bias, fairness en kansengelijkheid. Het doel is beter te begrijpen of er studenten zijn met minder kans op succes en of dit disproportioneel is. Dit kan duiden op kansenongelijkheid.

De analyse van kansengelijkheid heeft de volgende stappen:

  1. We lezen de bewerkte dataset weer in en de modellen die we in de basis-analyse hebben gemaakt.
  2. We maken weer een explainer om de modellen beter te begrijpen en te kunnen uitleggen.
  3. Vervolgens berekenen we of er bias bestaat voor verschillende groepen studenten naar geslacht, vooropleiding en vorm van aansluiting. We analyseren daarvoor de verdeling van kansen en mate van fairness in het voorspelmodel dat we hebben ontwikkeld.
  4. Tot slot trekken we er conclusies uit over de mate van bias binnen de opleiding voor retentie na 1 jaar.

3.2 Voorbereidingen

3.2.1 Laad de data

We laden de bewerkte data en het beste prognosemodel in voor:

Opleiding: ITD | B Communication and Multimedia Design (Synth) (CMD), voltijd, eerstejaars - Retentie na 1 jaar

Toon code
## Bepaal de paden
sData_outputpath         <- Get_Model_Outputpath(mode = "data")
sFittedmodels_outputpath <- Get_Model_Outputpath(mode = "last-fits")
sModelresults_outputpath <- Get_Model_Outputpath(mode = "modelresults")

## Laad de data voor de opleiding: data, last fits en model results
dfOpleiding_inschrijvingen <- rio::import(sData_outputpath, trust = TRUE) |> 
  mutate(Geslacht      = factor(Geslacht,      levels = lLevels_geslacht),
         Vooropleiding = factor(Vooropleiding, levels = lLevels_vop),
         Aansluiting   = factor(Aansluiting,   levels = lLevels_aansluiting))
lLast_fits                 <- rio::import(sFittedmodels_outputpath, trust = TRUE)
dfModel_results            <- rio::import(sModelresults_outputpath, trust = TRUE)

# Pas de Retentie variabele aan naar numeric (0/1), 
# zodat er een explainer van gemaakt kan worden
dfOpleiding_inschrijvingen$Retentie <- as.numeric(dfOpleiding_inschrijvingen$Retentie) - 1

## Maak een lijst van dfPersonas
lDfPersona <- list()

## Loop over de variabelen
lDfPersona <- map(c("Geslacht", "Vooropleiding", "Aansluiting"),
                  ~ Get_dfPersona(.x)) |>
  set_names(c("Geslacht", "Vooropleiding", "Aansluiting"))

## Laad de persona's
dfPersona_all <- Get_dfPersona()

3.2.2 Maak een explainer

We maken weer gebruik van de explainer van DALEX.

Toon code
## Extraheer het fitted model en de workflow
fitted_model <- last_fit |>
  extract_fit_parsnip()

workflow <- last_fit |>
  extract_workflow()

# Maak een explainer
explain_lf <- DALEXtra::explain_tidymodels(
  model = workflow,
  data = dfOpleiding_inschrijvingen |> select(-Retentie),
  y = dfOpleiding_inschrijvingen |> pull(Retentie),
  colorize = TRUE,
  verbose = FALSE,
  label = "Linear Regression"
)

3.3 Analyse van kansengelijkheid

Tot slot onderzoeken we kansengelijkheid door te kijken naar bias in de data. Dit wordt ook wel een fairness analyse genoemd. Het leidende werk voor fairness analyses is Fairness and Machine Learning: Limitations and Opportunities (Barocas et al., 2023). De methode die we in dit deel van de analyse hanteren is op dit gedachtengoed gebaseerd.

We onderzoeken of er bias bestaat voor verschillende groepen studenten als mogelijk teken van kansenongelijkheid. Ook hiervoor maken we gebruik van de DALEX explainer en onderzoeken de invloed van de variabelen op de kans op retentie voor verschillende groepen studenten naar geslacht, vooropleiding en aansluiting.

De volgende definities zijn van belang:

  • Bevoorrechte groep: Een groep die als standaard wordt beschouwd en mogelijk bevoordeeld wordt (bijv. meerderheidsgroepen, mannen, etc.).
  • Beschermde groep: Een groep waarvan wordt verwacht dat deze mogelijk benadeeld wordt (bijv. minderheidsgroepen, vrouwen, etc.).

In een onderwijssituatie kunnen deze groepen verschillen van maatschappelijke situaties. Zo hebben vrouwen in het onderwijs vaak een bevoorrechte positie omdat zij over het algemeen meer studiesucces hebben, terwijl in andere domeinen, bijvoorbeeld het vinden van werk, vrouwen vaak een beschermde groep zijn.

3.3.1 Ratio’s om kansengelijkheid te beoordelen

Voor elke groep onderzoeken we 5 ratio’s, ook wel maatstaven of metrieken genoemd. Deze ratio’s zijn afgeleid van verhoudingen in de confusion matrix; ze geven inzicht in de mate van bias en kansengelijkheid vanuit verschillende perspectieven van een prognosemodel.

1. Accuracy Equality Ratio

In welke mate voorspelt het model zowel de positieve als negatieve uitkomsten goed?

Deze maatstaf wordt gebruikt om te beoordelen of een model even accuraat is voor verschillende subgroepen binnen de dataset. Het vergelijkt de nauwkeurigheid van het model voor een beschermde groep (een minderheidsgroep) met de nauwkeurigheid voor een bevoorrechte groep (de meerderheidsgroep). Deze ratio wordt berekend als de verhouding tussen de nauwkeurigheid voor de beschermde groep en de nauwkeurigheid voor de bevoorrechte groep.

Formule

\text{ACC} = \frac{TP + TN}{TP + FP + TN + FN}

Definities

  • Nauwkeurigheid (Accuracy): Het percentage correcte voorspellingen van het model. Dit wordt berekend als het aantal juiste voorspellingen gedeeld door het totale aantal voorspellingen.

Interpretatie

  • Ratio = 1: Het model is even accuraat voor beide groepen.
  • Ratio < 1: Het model is minder accuraat voor de beschermde groep dan voor de bevoorrechte groep, wat wijst op mogelijke bias tegen de beschermde groep.
  • Ratio > 1: Het model is meer accuraat voor de beschermde groep dan voor de bevoorrechte groep, wat ook op een vorm van bias kan wijzen, maar in het voordeel van de beschermde groep.
Ter illustratie

Stel dat we retentie voor havisten (bevoorrecht) en mbo-ers (beschermd) voorspellen en de nauwkeurigheid van het model voor havisten 80% is en voor mbo-ers 70%. De Accuracy Equality Ratio is dan 0,875 (70% / 80%). Dit betekent dat het model minder accuraat is voor de beschermde groep (mbo-ers) dan voor de bevoorrechte groep (havisten).

2. Equal Opportunity Ratio

In welke mate zijn de terecht positieve voorspellingen gelijk?

Deze maatstaf beoordeelt de gelijkheid van kansen die een model biedt aan verschillende subgroepen in termen van de ‘True Positive Rate’ (TPR). Het vergelijkt de kans dat een model correct een positieve uitkomst voorspelt voor een beschermde groep versus een bevoorrechte groep.

De True Positive Rate (TPR) wordt ook wel de gevoeligheid (sensitivity of recall) genoemd. De Equal Opportunity Ratio wordt berekend als het aantal true positives gedeeld door het totaal aantal werkelijke positives.

Formule

\text{TPR} = \frac{TP}{TP + FN}

Definities

  • TP: True Positives (correcte voorspellingen van positieve uitkomsten)
  • FN: False Negatives (werkelijke positieve uitkomsten die foutief als negatief zijn voorspeld)

Interpretatie

  • Ratio = 1: Het model biedt gelijke kansen aan beide groepen in termen van het correct voorspellen van positieve uitkomsten.
  • Ratio < 1: Het model biedt minder kansen aan de beschermde groep in vergelijking met de bevoorrechte groep, wat wijst op mogelijke bias tegen de beschermde groep.
  • Ratio > 1: Het model biedt meer kansen aan de beschermde groep in vergelijking met de bevoorrechte groep, wat ook op een vorm van bias kan wijzen, maar in het voordeel van de beschermde groep.
Ter illustratie

Stel dat we retentie voor havisten (bevoorrecht) en mbo-ers (beschermd) voorspellen en de True Positive Rate voor havisten 70% is en voor mbo-ers 60%. De Equal Opportunity Ratio is dan 0,857 (60% / 70%). Dit betekent dat het model minder kans biedt aan de beschermde groep (mbo-ers) om correct positieve uitkomsten te voorspellen dan aan de bevoorrechte groep (havisten).

3. Predictive Equality Ratio

In welke mate zijn de vals positieve voorspellingen gelijk?

Deze maatstaf beoordeelt de gelijkheid van het aantal False Positives (vals-positieven) tussen verschillende subgroepen. Het vergelijkt de False Positive Rate (FPR) voor een beschermde groep met de FPR voor een bevoorrechte groep.

De FPR is de verhouding van het aantal vals-positieve voorspellingen (False Positives, FP) ten opzichte van het totaal aantal werkelijke negatieve gevallen (True Negatives, TN en False Positives, FP). De Predictive Equality Ratio wordt berekend als de verhouding tussen de FPR voor de beschermde groep en de FPR voor de bevoorrechte groep.

Formule

\text{FPR} = \frac{FP}{FP + TN}

Definities

  • FP: False Positives (foutieve voorspellingen van positieve uitkomsten)
  • TN: True Negatives (correcte voorspellingen van negatieve uitkomsten)

Interpretatie

  • Ratio = 1: Het model heeft een gelijke kans om False Positives te maken voor beide groepen.
  • Ratio < 1: Het model heeft minder kans om False Positives te maken voor de beschermde groep dan voor de bevoorrechte groep, wat wijst op mogelijke bias ten nadele van de bevoorrechte groep.
  • Ratio > 1: Het model heeft meer kans om False Positives te maken voor de beschermde groep dan voor de bevoorrechte groep, wat wijst op mogelijke bias ten nadele van de beschermde groep.
Ter illustratie

Stel dat we retentie voor havisten (bevoorrecht) en mbo-ers (beschermd) voorspellen en de False Positive Rate voor havisten 20% is en voor mbo-ers 30%. De Predictive Equality Ratio is dan 1,5 (30% / 20%). Dit betekent dat het model meer kans heeft om vals-positieve voorspellingen te maken voor de beschermde groep (mbo-ers) dan voor de bevoorrechte groep (havisten).

4. Predictive Parity Ratio

In welke mate zijn de terecht positieve voorspellingen gelijk?

Deze maatstaf beoordeelt de gelijkheid van de nauwkeurigheid van de voorspelling tussen verschillende subgroepen door de positieve voorspellende waarde (Positive Predictive Value, PPV) van het model voor een beschermde groep te vergelijken met die voor een bevoorrechte groep. De PVV wordt ook wel de precisie genoemd en wordt berekend als het aantal true positives (TP) gedeeld door het totaal aantal voorspelde positives (TP en FP). Het is een maat voor de nauwkeurigheid van de positieve voorspellingen van het model.

Formule

\text{PPV} = \frac{TP}{TP + FP}

Definities

  • TP: True Positives (correcte voorspellingen van positieve uitkomsten)
  • FP: False Positives (foutieve voorspellingen van positieve uitkomsten)

Interpretatie

  • Ratio = 1: Het model heeft een gelijke nauwkeurigheid in voorspellingen voor beide groepen.
  • Ratio < 1: Het model is minder nauwkeurig in het voorspellen van positieve uitkomsten voor de beschermde groep dan voor de bevoorrechte groep, wat wijst op mogelijke bias tegen de beschermde groep.
  • Ratio > 1: Het model is nauwkeuriger in het voorspellen van positieve uitkomsten voor de beschermde groep dan voor de bevoorrechte groep, wat ook op een vorm van bias kan wijzen, maar in het voordeel van de beschermde groep.
Ter illustratie

Stel dat we retentie voor havisten (bevoorrecht) en mbo-ers (beschermd) voorspellen en de Positive Predictive Value voor havisten 80% is en voor mbo-ers 70%. De Predictive Parity Ratio is dan 0,875 (70% / 80%). Dit betekent dat het model minder nauwkeurig is in het voorspellen van positieve uitkomsten voor de beschermde groep (mbo-ers) dan voor de bevoorrechte groep (havisten).

5. Statistical Parity Ratio

In welke mate zijn de positieve voorspellingen gelijk?

Deze maatstaf beoordeelt de gelijkheid van de positieve voorspellingen (ongeacht of ze correct zijn of niet) tussen verschillende subgroepen. Het vergelijkt de kans dat een model een positieve uitkomst voorspelt voor een beschermde groep met de kans dat het een positieve uitkomst voorspelt voor een bevoorrechte groep. De Statistical Parity Ratio wordt berekend als de verhouding tussen de kans op een positieve voorspelling voor de beschermde groep en de kans op een positieve voorspelling voor de bevoorrechte groep.

Formule

\text{SPR} = \frac{TP + FP}{TP + FP + TN + FN}

Definities

  • Positieve Voorspelling: Een voorspelling waarin het model een positieve uitkomst voorspelt (bijv. aangenomen worden, krediet goedkeuring, etc.).

Interpretatie

  • Ratio = 1: Het model voorspelt even vaak positieve uitkomsten voor beide groepen.
  • Ratio < 1: Het model voorspelt minder vaak positieve uitkomsten voor de beschermde groep dan voor de bevoorrechte groep, wat wijst op mogelijke bias tegen de beschermde groep.
  • Ratio > 1: Het model voorspelt vaker positieve uitkomsten voor de beschermde groep dan voor de bevoorrechte groep, wat kan wijzen op bias ten nadele van de bevoorrechte groep.
Ter illustratie

Stel dat we retentie voor havisten (bevoorrecht) en mbo-ers (beschermd) voorspellen en de kans op een positieve voorspelling voor havisten 80% is en voor mbo-ers 70%. De Statistical Parity Ratio is dan 0,875 (70% / 80%). Dit betekent dat het model minder vaak positieve uitkomsten voorspelt voor de beschermde groep (havisten) dan voor de bevoorrechte groep (mbo-ers).

Nu we deze begrippen hebben gedefinieerd, kunnen we de bias en kansengelijkheid van het model voor verschillende groepen studenten analyseren. Hiervoor gebruiken we het fairmodels package van DALEX.

3.3.2 Aantallen en percentages per groep

Voor de variabelen Geslacht, Vooropleiding en Aansluiting is de verdeling binnen deze opleiding als volgt:

Retentie na 1 jaar

Variabele

N

Totaal
N = 1.6131

Ja
N = 1.0021

Nee
N = 6111

p-value2

Geslacht

1.613

<0,001***

M

915 (57%)

521 (52%)

394 (64%)

V

698 (43%)

481 (48%)

217 (36%)

Vooropleiding

1.613

0,008**

MBO

522 (32%)

330 (33%)

192 (31%)

HAVO

860 (53%)

548 (55%)

312 (51%)

VWO

58 (3,6%)

34 (3,4%)

24 (3,9%)

BD

92 (5,7%)

42 (4,2%)

50 (8,2%)

HO

51 (3,2%)

27 (2,7%)

24 (3,9%)

CD

30 (1,9%)

21 (2,1%)

9 (1,5%)

Overig

0 (0%)

0 (0%)

0 (0%)

Onbekend

0 (0%)

0 (0%)

0 (0%)

Aansluiting

1.613

<0,001***

Direct

756 (47%)

455 (45%)

301 (49%)

Tussenjaar

176 (11%)

125 (12%)

51 (8,3%)

Switch intern

202 (13%)

148 (15%)

54 (8,8%)

Switch extern

445 (28%)

254 (25%)

191 (31%)

Na CD

19 (1,2%)

14 (1,4%)

5 (0,8%)

2e Studie

15 (0,9%)

6 (0,6%)

9 (1,5%)

Overig

0 (0%)

0 (0%)

0 (0%)

Onbekend

0 (0%)

0 (0%)

0 (0%)

1n (%)

2*p<0.05; **p<0.01; ***p<0.001

3.3.3 Verdeling van kansen

Voordat we in meer detail kansengelijkheid gaan analyseren, onderzoeken we eerst de verdeling van de kansen op retentie voor verschillende groepen studenten voor de variabelen Geslacht, Vooropleiding en Aansluiting. De verdeling van deze kansen is uniek per opleiding.

Toelichting

  • De verdeling van de kansen is te zien door de boxplot en de violin plot.
  • De boxplot geeft de vier quartielen aan van de data: de box staat voor de middelste 50% van de data, met een streep die de mediaan aangeeft (de middelste waarde van de data). De lijnen (whiskers) geven de 1e 25% en laatste 25% van de data.
  • De boxplot wordt gecombineerd met de violin plot, waarbij de breedte van de violin de dichtheid van de data aangeeft. Het kan zijn dat het lijkt alsof er geen violin is; in dat geval is de verdeling van het aantal studenten zeer breed en de violin vorm daardoor heel smal.
  • Samen geven deze twee visualisaties een goed beeld van de verdeling van de voorspelde kansen van het model.
  • De blauwe gestippelde lijn geeft de 50% kans aan; alle waarden die boven deze lijn valt heeft een kans van 50% of meer op retentie. Hiervan voorspelt het model dat zij niet uitvallen. Deze grenslijn kan door de verdeling van de groepen heen lopen.
Toon code
## Maak een fairness analyse
for(group in c("Geslacht", "Vooropleiding", "Aansluiting")) {

  ## Groep
  Knit_Header(group, 4)
  
  # Bepaal de meest voorkomende subgroep = Privileged
  sPrivileged <- Get_Privileged(dfOpleiding_inschrijvingen, group)

  ## Maak een fairness object
  fobject <- Get_objFairness(explain_lf, group, sPrivileged)
  
  ## Maak een tabel van de fairness analyse
  dfFairness_totaal <- Get_dfFairness_Total(fobject)
  
  ## Maak een plot van de fairness analyse
  density_plot <- suppressWarnings(
    Get_Density_Plot(fobject, group = group) 
  ) 

  ## Bewaar de plot
  sPlotname <- glue("density_plot_{tolower(group)}")
  sPlotPath <- Get_Plot_Outputpath(sPlotname, mode = "plot")

  suppressWarnings(
        Finalize_Plot(
          plot_name = density_plot,
          save_filepath = sPlotPath,
          height_pixels = 250 + (50 * length(unique(dfFairness_totaal$Categorie)))
        ))

  ## Toon de bestaande plot
  sPlot <- glue("![]({sPlotPath})")
  Knit_Print_Rule(sPlot)

}

3.3.3.1 Geslacht

3.3.3.2 Vooropleiding

3.3.3.3 Aansluiting

3.3.4 Fairness checks

Nu we de verdeling van de kansen kennen, maken we tot slot een fairness analyse voor de variabelen Geslacht, Vooropleiding en Aansluiting. Voor elke groep berekenen we de maatstaven die we eerder hebben behandeld.

We maken een plot van de fairness analyse, waarbij we per variabele één categorie nemen als de bevoorrechte groep; hiervoor hanteren we per variabele de meest frequente groep. De aanname is dat een opleiding op deze groep het beste is toegerust. Daarnaast speelt mee dat Dalex bij een te laag aantal studenten in een bevoorrechte groep geen fairness analyse kan berekenen.

Als binnen een variabele een groep een ratio heeft die naar links of naar rechts afwijkt, kan dit duiden op een verschil in kansengelijkheid. Let erop dat de bevoorrechte groep zelf hier niet in is opgenomen (!). Mochten alle overige groepen naar links of rechts afwijken, dan is er sprake van een bias naar de bevoorrechte groep.

Het wijkt af als de balken verder buiten het groene vlak komen en in het rode vlak; dit is gebaseerd op een marge, epsilon, van 0,8. Deze marge is gebaseerd op het 4/5 principe: er is sprake van een te groot verschil als de maat voor een beschermde groep 4/5 of meer afwijkt van de bevoorrechte groep. Een epsilon van 0,8 leidt tot marges van -0,2 (epsilon/1) en +0,25 (1/espilon). Als er twee ratio’s of meer buiten deze marges vallen, is er volgens dit criterium sprake van bias. Als een maatstaf naar links afwijkt is er sprake van bias naar de beschermde groep (ten nadele), als deze naar rechts afwijkt is er sprake van bias naar de bevoorrechte groep (ten voordele).

Nota Bene

Als de uitkomstmaat van een model negatief is (zoals uitval), dan moet de interpretatie precies andersom gemaakt worden. Dit geldt voor alle maatstaven van bias en fairness in dit hoofdstuk.

Om de robuustheid en betrouwbaarheid in de detectie van bias te waarborgen, moeten er minstens twee metrieke waarden buiten de epsilon-marges vallen voordat er sprake is van bias (Barocas et al., 2023). Hiervoor is een aantal redenen:

1. Meerdere indicatoren: Het gebruik van meerdere maatstaven zorgt ervoor dat we de detectie van bias niet baseren op slechts een, mogelijk ruisgevoelige, indicator. Als slechts één metriek buiten de marges valt, kan dit toeval zijn of te wijten zijn aan andere niet-systematische fouten in de data. We spreken dan nog niet over bias. Meerdere metrieke afwijkingen geven een sterkere indicatie van een systematisch probleem.

2. Differentie van bias types: Bias kan zich op verschillende manieren manifesteren, bijvoorbeeld in termen van ongelijksoortige impact, ongelijke kansen in voorspellingen of ongelijke behandeling. Door meerdere maatstaven te evalueren, onderzoeken we een breder spectrum van potentiële bias en zien we geen aspecten over het hoofd.

3. Normatieve overwegingen: Vaak is er een normatieve basis voor het definiëren van wat eerlijk is. Het vergelijken van meerdere maatstaven kan helpen om genuanceerder en vollediger beeld te krijgen van hoe een model presteert ten opzichte van verschillende fairness criteria.

De keuze voor twee maatstaven als minimum baseren we op een combinatie van statistische overwegingen en praktische normen binnen het machine learning vakgebied om een goed evenwicht te vinden tussen gevoeligheid (het detecteren van daadwerkelijke bias) en specificiteit (het vermijden van vals positieven) (Barocas et al., 2023).

Toon code
## Maak een fairness analyse
for(group in c("Geslacht", "Vooropleiding", "Aansluiting")) {

  ## Groep
  Knit_Header(group, 4)
  
  # Bepaal de meest voorkomende subgroep = Privileged
  sPrivileged <- Get_Privileged(dfOpleiding_inschrijvingen, group)

  ## Maak een fairness object
  fobject <- Get_objFairness(explain_lf, group, sPrivileged)

  ## Maak een tabel van de fairness analyse
  dfFairness_totaal <- Get_dfFairness_Total(fobject)
  
  ## Check of er bias is
  Print_Fairness_Object_LTA(fobject)

  ## Maak een plot van de fairness analyse
  fairness_plot <- suppressWarnings(
    Get_Fairness_Plot(fobject, group = group, privileged = sPrivileged) +
      theme(panel.border = element_rect(
        colour = "darkgrey",
        fill = NA,
        size = 0.4
      ))
  )

  ## Bewaar de plot
  sPlotname <- glue("fairness_plot_{tolower(group)}")
  sPlotPath <- Get_Plot_Outputpath(sPlotname, mode = "plot")

  suppressWarnings(
        Finalize_Plot(
          plot_name = fairness_plot,
          save_filepath = sPlotPath,
          height_pixels = 250 + (50 * length(unique(dfFairness_totaal$Categorie)))
        ))

  ## Toon de bestaande plot
  sPlot <- glue("![]({sPlotPath})")
  Knit_Print_Rule(sPlot)
  
  ## Bewaar de fairness check data
  sFairness_outputpath  <- Get_Model_Outputpath(mode = "fairness", group = group)
  dfFairness_check_data <- Get_dfFairness_Check_Data(fobject[["fairness_check_data"]], group = group)
  saveRDS(dfFairness_check_data, file = sFairness_outputpath)
  
}

3.3.4.1 Geslacht

Prognosemodel (Linear Regression) niet geslaagd: 3 van 5 maatstaven
Totaal verlies : 1.05

3.3.4.2 Vooropleiding

Prognosemodel (Linear Regression) niet geslaagd: 1 van 5 maatstaven
Totaal verlies : 2.6

3.3.4.3 Aansluiting

Prognosemodel (Linear Regression) niet geslaagd: 1 van 5 maatstaven
Totaal verlies : 3.03

3.4 Conclusies

Na de uitvoering van de fairness analyse vatten we de conclusies samen in een tabel en tekst.

Toelichting:

  • Bij rood is er sprake van een negatieve bias.
  • Bij groen is er sprake van een positieve bias.
  • Bij oranje is er sprake van een bias, maar zijn de aantallen studenten te laag om conclusies over een negatieve of positieve bias aan te verbinden. We hanteren een minimum van 15 studenten per categorie binnen een variabele.
  • De bevoorrechte groep is grijs. Hiervan dient een eventuele bias nader bepaald te worden (NTB = Nader te bepalen). Dit is het geval als alle overige groepen binnen een variabelen een bias hebben.

Variabele

Groep

N

Bias

Geen Bias

Negatieve Bias

Positieve Bias

Geslacht

M

915

NTB

0

0

0

V

698

Ja

3

0

2

Vooropleiding

MBO

522

Nee

5

0

0

HAVO

860

NTB

0

0

0

VWO

58

Nee

5

0

0

BD

92

Ja

1

4

0

HO

51

Nee

5

0

0

CD

30

Nee

4

1

0

Aansluiting

Direct

756

NTB

0

0

0

Tussenjaar

176

Nee

5

0

0

Switch intern

202

Nee

4

0

1

Switch extern

445

Nee

5

0

0

Na CD

19

Nee

5

0

0

2e Studie

15

Ja

2

3

0

  1. Geslacht: Er is sprake van bias in Retentie na 1 jaar op basis van geslacht. Er is een positieve bias voor: V.
  2. Vooropleiding: Er is sprake van bias in Retentie na 1 jaar op basis van vooropleiding. Er is een negatieve bias voor: BD.
  3. Aansluiting: Er is sprake van bias in Retentie na 1 jaar op basis van aansluiting. Er is een negatieve bias voor: 2e Studie.

Literatuur

 

Verantwoording

Deze analyse maakt deel uit van het onderzoek naar kansengelijkheid van het lectoraat Learning Technology & Analytics van De Haagse Hogeschool: No Fairness without Awareness | Het rapport is door het lectoraat ontwikkeld in Quarto 1.6.39. | Template versie: 0.9.1.9000